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摘要 : 【 目的 ] 在 食品 安全 领域 中 ,建立 相关 数据 库 对 食品 安全 的 监管 和 控制 都 会 有 很 大 的 帮助 ， 自 动 分 词 在 构 


建 索 引 、 使 用 索引 以 及 构建 语料库 中 都 起 到 至 关 重 要 的 作用 。 将 基于 条 件 随机 场 的 字 标 注 统计 学 习 方法 , 应 用 


在 食品 安全 突 发 事件 语 料 的 自动 分 词 中 。[ 方法 】 分 析 语 料 的 词 长 分 布 等 特点 ， 对 该 方法 自动 分 词 过 程 中 所 涉及 
的 特征 选择 和 特征 模板 进行 不 同 实验 ,得 出 不 同 特征 选择 和 应 用 不 同 特征 模板 对 分 词 结果 的 影响 。[ 结果 】 从 实 
验 结果 可 以 看 出 , 特征 选择 时 并 不 是 特征 越 多 分 词 效果 越 好 , 会 出 现 特征 干扰 的 情况 , 在 二 三 字 词 占 46.62% 的 


食品 安全 突 发 事件 语 料 中 , 特征 模板 中 的 当前 字 和 前 后 驱 第 
通过 对 不 同 特征 选择 和 特征 模板 及 其 相互 组 合 的 实验 , 选择 出 在 本 文 研究 的 语料库 自动 分 词 中 最 优 的 特征 和 特 


个 字 所 代表 的 特征 模板 对 分 词 效 果 影响 明显 。[ 结论 】 


征 模板 , 在 5Tag 特征 标记 下 配合 对 应 特征 模板 对 目标 语 料 分 词 的 F 值 达到 92.88%。 
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近年 来 , 食品 安全 事故 不 断 涌现 。 越 来 越 多 的 食 
品 安全 亚 性 事件 ,对 社会 生产 和 人 民 和 群众 的 生活 造成 
严重 影响 。 关 于 食品 安全 突 发 事件 的 各 种 信息 也 迅速 
增多 , 并 引起 人 们 的 广泛 关注 ， 由 于 食品 安全 关系 到 
民众 的 生命 安全 和 公共 健康 ， 因 此 , 食品 安全 问题 的 
解决 不 仪 需要 “ 自 上 而 下 ”政府 部 门 的 行政 监管 和 企业 
的 自律 中 , 更 需要 “ 自 下 而 上 ”社会 监督 力量 的 积极 参 
与 中 ,在 信息 传播 速度 如 此 之 快 的 今天 , 作为 一 直 以 来 
的 社会 热点 话题 网络、 纸 质 报 纸 、 书 籍 成 为 “食品 安 
全 突 发 事件 ”快速 扩散 的 主要 载体 , 同时 也 成 为 群众 
获取 食品 安全 事件 信息 的 一 个 主要 途径 。 随 着 自然 语 


Ti AED SUA HE, 针对 中 文 文本 的 自动 分 词 技术 的 
研究 已 取得 一 定 的 成 效 , 在 精准 度 和 分 词 速度 上 都 有 
了 大 幅 提升 ， 这 项 技术 在 许多 方面 也 已 经 得 到 应 用 ， 
在 文本 分 类 、 信 息 检索 、 信 息 过 滤 、 文 献 自动 标 引 、 摘 
要 自动 生成 等 中 文 信息 处 理 中 都 起 到 关键 性 的 作用 中 
但 是 在 食品 安全 信息 处 理 中 自动 分 词 的 应 用 和 研究 较 
D, 有 待 探索 。 

在 食品 领域 中 ,建立 相关 数据 库 对 食品 安全 的 监 
管 和 控制 会 有 很 大 的 帮助 ， 张 星 联 等 外 指出 建立 食品 
安全 预警 数据 库 系 统 的 重要 性 。 食 品 信息 的 不 对 称 不 
真实 是 食品 领域 中 的 不 正当 行为 的 根本 原因 之 一 , 要 
避免 这 样 的 现象 ,就 要 创立 有 效 可 行 的 食品 电子 监管 
系统 ， 也 就 是 创建 动态 数据 库 , 数据 库 更 新 及 时 和 准 
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0 
Hi 


— 


China i AdE 
C hii iaX ive 'ERHTU 


总 第 2 期 20174F 第 2 期 


以 只 能 找到 局 部 的 最 优 值 , 但 是 也 带 来 了 标记 偏见 的 


加 稳定 中 ,食品 工业 发 展 迅 速 , 食品 加 工 的 范围 和 深度 
不 断 扩展 , 余 清 等 四 分 析 了 建立 加 工 食品 风险 数据 库 
的 必要 性 , 该 数据 库 可 以 提供 食品 的 检验 和 检测 信息 ， 
还 提供 如 食品 的 危害 物 风 险 系数 等 信息 ,为 加 工 食 品 
风险 数据 的 研究 提供 了 很 大 的 帮助 。 在 具体 实施 上 ， 
贾 凯 等 中 建立 了 彭州 市 三 界 镇 生 鲜 农产品 溯源 数据 库 ， 
在 对 国内 和 国外 的 渊源 系统 进行 整理 和 研究 的 基础 
上 , 再 对 彭州 市 三 界 镇 的 具体 食品 情况 进行 整理 ,并 
提供 生 鲜 食品 信息 的 管理 和 应 用 功能 。 

目前 中 文 自动 分 词 方法 主要 有 4 种 : 机 械 分 词法 、 
基于 统计 的 分 词法 、 字 标注 统计 学 习 法 以 及 基于 深度 
神经 网 络 模 型 的 方法 。 在 2002 年 之 前 ， 自 动 分 词 方法 
基本 上 是 基于 词典 的 后， 在 此 基础 上 可 进一步 分 为 基 
于 规则 的 机 械 分 词法 和 基于 统计 的 分 词法 。 这 两 类 方 
法 完全 依赖 于 词典 , 词典 内 容 则 是 全 部 领域 信息 的 来 
源 外 ,虽然 该 方法 配合 词典 以 及 通过 补充 大 量 消除 歧 
义 的 信息 , 能够 有 较 好 的 领域 针对 性 和 准确 率 , 但 是 
其 受 限 于 对 词典 的 完全 依赖 ， 导 致 这 两 类 方法 不 能 够 
有 很 好 的 适应 性 ， 另 外 构建 领域 词典 工程 量 大 , 大量 
的 时 间 和 人 力 花 在 词典 构建 上 , 同时 随 着 更 多 未 登录 
词 的 出 现 , 词典 难以 维护 。 

随 着 SIGHAN 国际 中 文 分 词 评测 Bakeoff 的 展开 ， 
将 中 文 分 词 任务 视 为 序列 标注 问题 逐渐 成 为 主流 。 字 
标注 统计 学 习 方法 在 解决 未 登录 词 和 消除 歧义 上 有 较 
好 的 效果 , 在 不 利用 词典 的 情况 下 , 字 标 注 统计 学 习 
方法 的 分 词 效果 完全 超过 基于 词典 的 方法 ， 显 然 是 更 
好 的 选择 。 而 基于 深度 神经 网 络 模型 的 方法 ， 目 前 尚 
未 成 熟 ， 深度 学 习 在 自然 语言 处 理 方面 的 应 用 较 少 ， 
本 文 不 做 探讨 。 

基于 字 标 注 统计 学 习 方 法 的 中 文 分 词 任务 本 质 上 
是 一 个 序列 标记 的 过 程 , 将 文本 信息 抽象 为 一 个 观察 
序列 , 然后 对 序列 中 的 每 个 字 进 行 标记 M'"。 字 标注 统 
计 学 习 方 法 的 关键 在 于 选择 一 个 对 处 理 目标 合适 的 机 
器 学 习 模 型 ， 而 目前 用 的 比较 多 的 是 隐 马 尔 可 夫 模 型 
(HMM), 、 最 大 焙 模 型 (ME) 和 条 件 随 机 场 模型 (CRF)。 
隐 马 尔 可 夫 模 型 主要 缺点 是 由 于 其 输出 独立 性 假设 ， 
导致 不 能 考虑 上 下 文 的 特征 , 限制 了 特征 的 选择 。 最 
大 炉 模 型 则 解决 了 隐 马 尔 可 夫 模 型 的 问题 , 可 以 任意 
选择 特征 , 但 由 于 其 在 每 一 节点 都 要 进行 归 一 化 ， 所 


问题 ， 即 几 是 训练 语 料 中 未 出 现 的 情况 全 都 忽略 掉 。 
条 件 随机 场 模型 则 很 好 地 解决 了 这 一 问题 , 该 模型 并 
不 在 每 一 个 节点 进行 归 一 化 , 而 是 所 有 特征 进行 全 局 
归 一 化 , 因此 求解 的 是 全 局 最 优 值 。 在 之 前 的 研究 已 
经 证 明 采 用 链 式 的 CRF 模型 实现 的 分 词 系统 ， 较 之 于 
ME 与 HMM 能 得 到 更 好 的 效果 。 

本 文 根 据 食品 安全 突 发 事件 语 料 特 点 ， 提 出 一 种 
面向 食品 安全 突 发 事件 汉语 分 词 的 特征 选择 及 模型 优 
化 的 研究 方法 。 研 究 内 容 侧重 于 以 下 两 个 方面 : 将 基 
于 链 式 的 条 件 随 机 场 模 型 的 中 文 自动 分 词 方 法 应 用 于 
食品 安全 语 料 自动 分 词 当中 ; 分 析 语 料 , 提出 符合 语 
料 特点 的 特征 模板 、 特 征 选 择 以 及 特征 标记 选择 。 该 
方法 与 其 他 分 词 系 统 相 比 能 够 较 好 地 解决 食品 安全 案 
例 库 这 种 密集 型 文本 所 有 具有 的 交 革 上 收 义 和 未 登录 词 的 
问题 有 效 提 高 了 分 词 的 准确 率 和 召回 率 。 


2 条 件 随 机 场 模型 介绍 


条 件 随 机 场 模 型 (Conditional Random Fields, 
CRFs) 是 Lafferty 等 于 2001 FERKA AARE R 
可 夫 模 型 的 基础 上 提出 的 一 种 无 向 图 学 习 模型 ， 是 一 
种 用 于 标注 和 切 分 有 序数 据 的 条 件 概率 模型 六 。 

无 向 图 模型 亦 称 为 马尔 可 夫 随 机 场 或 马尔 可 夫 网 
?k, 是 由 Pearl 提出 0。 无 向 图 G(V,E), Hip v 
点 /节点 ， 表示 随 机 变量 ; E 是 边 / 弧 ， 表示 随机 变量 间 
的 条 件 依赖 关系 。 

尽管 在 给 定 每 个 节点 的 条 件 下 , 分 配给 该 节点 一 
个 条 件 概率 是 可 能 的 , 无 向 图 的 无 向 性 导致 不 能 用 条 
件 概 率 参数 化 表示 联合 概率 , 而 要 从 一 组 条 件 独立 的 
原则 中 找 出 一 系列 局 部 函数 的 乘积 来 表示 联合 概率 。 


图 1 无 向 图 最 大 全 联通 子 图 示例 


图 1 


是 一 个 简单 的 例子 , 无 向 图 中 的 最 大 全 联通 
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TE 6, X}, { X3}, UG, X4), Uo. Xa, Xs), 那么 很 
容易 得 到 图 中 无 向 图 模型 的 联合 概率 分 布 为 : 
P(X,X,,X,, X4, X;)= 

VG, X. GG, X KX, X DAX, X4, Xs) 
UGG, XP, GC, X4) (X, X Y CX, X4, X5)] 


(1) 

如 果 给 定 的 马尔 可 夫 随 机 场 中 每 个 随机 变量 还 有 
观察 值 , 则 要 确定 的 是 给 定 观 察 集合 下 ， 这 个 马尔 可 夫 
随机 场 的 分 布 , 也 就 是 条 件 分 布 , 这 个 马尔 可 夫 随 机 场 
就 称 为 条 件 随 机 场 。 它 的 条 件 分 布 形式 完全 类 似 于 马尔 
可 夫 随 机 场 的 分 布 形式 ， 只 不 过 多 了 一 个 观察 集合 元 

条 件 随机 场 提 出 目的 在 于 解决 离散 数据 的 序列 标 
注 问题 ， 在 给 定 的 序列 X-íx, X2, X377, Xn-1, x, UFUG Fi 
状态 集合 Yos ys Ys Yrd 志 的 情况 下 , Ut G-(V, E) 
是 一 个 无 向 图 了 = (Y,|veV) 是 以 G 中 节点 为 索引 的 
随机 变量 构成 的 集合 。 在 给 定 X 的 条 件 下 ， 如 果 每 个 
随机 变量 服从 马尔 可 夫 属 性 即 : 


Js 站 天 


fjs 


PY, X,Y, „u zv) - PY, X,Y, uov) (2) 
其 中 ，xcy 表示 wu 和 vw 是 相 邻 的 边 ， 则 构成 一 个 
条 件 随机 场 。 


如 图 2 Brzs, CRF 采用 无 向 图 模型 来 描述 给 定 序 
列 的 状态 , 在 条 件 随 机 场 X 中 , 每 一 个 元 素 对 应 图 中 


CRF 就 是 给 定 观察 集合 情况 下 的 无 向 图 模型 1。 


图 2 线性 链 的 CRF 图 形 结 构 

根据 条 件 随机 场 基 本 理论 : 

P(ylx, A) pe exp(? Nt Cy, -Lly;.x.i) +) uus (Fi)) 
j k 
(3) 

3 ET CRF 模型 的 食品 安全 突 发 事件 自动 

ig 
31 食品 安全 语料库 说 明 

在 对 食品 安全 突 发 事件 进行 采集 、 标 注 和 组 织 的 
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基础 上 , 本 文 构建 2005 年 -2015 年 的 食品 安全 突 发 事 
件 语料库 , 并 由 此 语料库 经 过 粗 切 分 、 人 工 校 对 等 步 
又 形成 最 后 实验 数据 ,具体 过 程 如 图 3 所 示 。 


数据 采集 语 料 粗 切 分 人 工 校对 


5000 条 突 发 


语 料 粗 
事件 语料库 切 分 


图 3 实验 所 用 语料库 构建 过 程 


(1) 食品 安全 突 发 事件 的 采集 过 程 如 下 : 采集 目 
标 主 要 包括 网 络 上 的 食品 安全 突 发 事件 和 纸 质 报纸 、 
书籍 上 的 食品 安全 突 发 事件 。 网 络 上 食品 安全 突 发 事 
件 的 采集 通过 自己 编写 的 程序 , 利用 面向 突 发 事件 主 
题 垂 直 搜索 引擎 技术 自动 采集 , 采集 范围 包括 新 闻 门 
户 、 论 坛 和 博客 ,对 于 采集 的 异 构 数据 通过 相应 的 数 
据 清 洗 、 转 换 保 存 到 数据 库 中 ; 而 纸 质 的 突 发 事件 案 
例 则 通过 人 工 录入 、 校 对 的 方式 完成 对 近 5 000 条 突 
发 事件 的 采集 , 经 清洗 和 转换 后 约 4500 条 人 库 数 据 ， 
累计 存储 大 小 约 20MB。 

Q) 采集 完成 之 后 , 用 中 国 科 学 院 计算 技术 研究 
所 的 分 词 软件 NLPIR 对 语 料 进 行 标注 ,标注 结果 显 
示 ， 其 结果 中 出 现 了 很 多 未 登录 词 识 别 不 准确 的 情 
况 。 食 品 安 全 案例 库 属于 密集 型 文本 ,其 中 中 文 未 登 
录 词 和 歧义 词 大 量 出 现 。 在 为 数 众 多 的 食品 描述 、 地 
理 描述 、 化 合 物 描述 等 类 型 文本 中 , 食品 安全 描述 文 
本 具有 很 好 的 代表 性 , 涉及 众多 的 食品 名 称 和 化 学 品 
名 称 ,， 所 以 机 器 会 标注 错误 , 在 食品 安全 领域 适用 性 
不 太 好 , 所 以 只 是 用 它 来 进行 粗 切 分 , 减少 人 工 标注 
的 工作 量 。 

(3) 对 经 过 粗 切 分 之 后 的 语 料 进 行人 工 标注 , 由 
于 出 现 了 较 多 的 未 登录 词 未 识别 和 歧义 词 识别 错误 的 
情况 ,因此 对 全 部 粗 切 分 后 的 语 料 逐 个 词 进行 校对 ， 
找 出 粗 切 分 过 程 中 出 现 的 分 词 错误 ,并 校正 为 正确 的 
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分 词 结果 , 最 大 程度 上 保证 训练 语 料 分 词 的 正确 。 
3.02 ”实现 方法 
CRF++t 是 一 个 可 用 于 连续 序列 的 标注 的 可 定 
制 并 且 开源 的 条 件 随 机 场 工具 ,而 且 也 是 目前 所 有 条 
件 随机 场 工具 中 使 用 率 最 高 , 被 普遍 认为 易 用 性 VE 
确 性 和 稳定 性 等 综合 方面 表现 最 好 的 一 个 。CRF++ 是 
为 了 通用 目的 设计 定制 , 并 被 用 于 自然 语言 信息 处 理 
的 各 个 方面 ， 如 命名 实体 识别 、 信 息 提 取 、 语 义 分 析 
等 。 本 文 利用 CRF++ 进 行 中 文 文本 分 词 处 理 , 使 用 的 
版 本 是 CRF++ 在 Linux 环境 下 较 新 的 0.58 版 本 。 
实验 过 程 如 图 4 rz, 主要 分 为 训练 学 习 、 测 试 
输出 、 模 型 测评 和 模型 优化 4 个 阶段 。 训练 学 习 部 分 


训练 学 习 阶 段 


测试 输出 阶段 
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主要 是 语 料 的 特征 提取 ， 选 出 适合 食品 安全 语 料 的 
部 分 特征 , 将 不 同 特征 赋予 不 同 特征 标记 之 后 加 入 
文本 中 并 处 理 成 CRF++ 能 识别 的 格式 。 然 后 选取 不 
同 特征 及 不 同 特征 组 合 ,根据 选取 的 特征 构造 特征 
模板 。 最 后 在 CRF++ 中 由 训练 数据 和 特征 模板 
(template 文件 ) 一 起 训练 出 分 词 模型 (model 文件 )。 测 
试 输出 部 分 是 用 同样 是 处 理 为 CRF++ 格 式 的 测试 数 
据 和 已 经 训练 出 的 分 词 模 型 共同 得 到 最 后 的 分 词 结 
AR, 如 表 1 所 示 。 模型 测评 部 分 对 得 到 的 输出 结果 进 
行 测 评 , 并 将 测评 结果 与 其 他 实验 结果 进行 对 比 , 观 
察 其 中 差别 , 不 断 改变 特征 选择 、 特 征 标 记 的 选择 以 
及 优化 特征 模板 ,直到 得 到 相对 最 优 的 分 词 结果 。 


模型 测评 阶段 模型 优化 阶段 


食品 安全 突 发 事 


数据 ) 


特征 模板 训练 出 分 闻 模 型 


特征 模板 的 
构建 


分 词 结果 


异型 测评 
P、R、F 值 
计算 


CRF 模 型 


优化 之 后 得 到 
的 最 佳 测评 值 


图 4 实验 流程 


表 1 CRF 分 词 后 输出 结果 示例 


文本 语 料 正确 标记 CRF 输出 标记 文本 语 料 正确 标记 CRF 输出 标记 
5 S S 中 S S 
一 B S JR B B 
种 E S JO I E 
是 S S 大 M B 
生 B B 意 E E 
产 E E S S 
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本 文 使 用 现代 汉语 中 字 在 词 中 的 位 置 特征 , 测试 


ERE, 因此 需要 对 所 有 参与 训练 和 测试 的 语 料 进行 
分 词 。 采 用 的 方法 是 机 器 自动 分 词 与 人 工 校 正 相 结 合 的 
方法 , 首先 用 汉语 分 词 系 统 NLPIR 进行 自动 分 词 [ 
由 于 食品 安全 事件 语 料 的 领域 性 较 强 , 对 于 NLPIR 错 
误 的 分 词 结果 , 在 相应 食品 科学 领域 研究 人 员 的 指导 
F, 组 织 人 力 系统 全 面 地 对 食品 安全 事件 的 语 料 进行 
分 词 校对 , 形成 高 质量 的 食品 安全 事件 分 词语 料 5”。 


了 三 种 不 同 的 位 置 特征 标记 ,如 表 2 所 示 ， 同 时 将 位 
置 特 征 放 在 训练 语 料 的 最 后 一 列 ， 作 为 CRF++ 的 输 
出 ,用 测试 语 料 配合 经 过 训练 的 模型 分 词 之 后 输出 位 
置 特征 ， 最 后 根据 位 置 特征 标记 将 字 组 成 词 ， 完 成 分 
词 任务 。 


表 2 位 置 特征 标记 


本 文 所 有 的 实验 均 基 于 人 工 校对 后 的 分 词语 料 进行 。 

食品 安全 突 发 事件 语 料 的 中 文 自动 分 词 可 以 抽象 
为 序列 标记 任务 , 输入 的 待 分 词 文本 就 是 模型 中 给 定 
的 观测 序列 , 在 给 定 观 测序 列 的 条 件 下 , 利用 CRF Bi 
型 得 到 一 个 整个 序列 的 最 大 的 联合 概率 分 布 。 能 否 选 
出 一 组 有 效 的 特征 标记 对 最 后 的 分 词 效果 有 很 大 影 
响 ， 所 以 首先 要 筛选 和 确定 竺 分 词语 料 的 特征 选择 和 
相对 应 的 特征 标记 ,然后 根据 筛选 的 特征 确定 训练 模 
型 时 所 用 到 的 特征 模板 ,训练 数据 和 特征 模板 确定 之 
后 , 就 可 以 训练 出 所 需要 的 CRF 模型 ， 最 终 的 分 词 结 
果 即 是 根据 该 模型 计算 得 到 的 。 

模型 优化 阶段 是 本 文 的 重要 研究 部 分 ,通过 不 断 
尝试 新 的 特征 标记 以 及 不 同 的 特征 选择 组 合 ， 配合 以 
与 文本 特点 和 特征 选择 更 加 适合 的 特征 模板 以 达到 更 
好 的 模型 测评 结果 ,具体 表现 在 PERR), RCA E 
率 )、F 值 更 高 。 具 体 计算 公式 如 下 : 


准确 率 (P) = 


全 _x100% (4) 


A+B 


召回 率 (R)= x100% (5) 


A+C 


调和 平均 值 (F) = TR 


x100% (6) 


实际 计算 的 时 候 也 是 如 此 ,对 位 置 特征 的 标记 计 
算 P、R、F 的 值 , 然后 , 根据 每 个 标记 数量 所 占 比例 
计算 出 权 值 , 加 权 平 均 得 到 最 后 的 值 。 

(1) 特征 和 特征 标记 的 选择 

在 基于 条 件 随 机 场 的 中 文 自动 分 词 中 , 在 训练 学 
习 阶 段 ， 需 要 给 定 一 部 分 正确 的 经 过 机 需 分 词 和 人 工 
校正 的 语 料 来 训练 学 习 出 用 于 分 词 的 CRF 模型 , 在 训 
练 语 料 中 使 用 不 同 的 特征 选择 和 不 同 的 特征 标记 会 导 
致 分 词 效果 的 不 同 。 
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标记 类 型 标记 描述 
4Tag B 表示 词 首 字 , M 表示 词 中 字 , E 表示 词尾 字 ， 
(B, M, E, S} S 表示 单字 词 字 。 
5Tag B 表示 词 首 字 , I 表示 四 字 以 上 词 首 后 第 一 个 字 ， 
{B, I, M, E, S} ”M 表示 词 中 , E 表示 词尾 字 , S 表示 单字 词 字 。 


B 表示 词 首 字 , I 表示 四 字 以 上 词 首 后 第 一 个 
ii 字 , J 表示 五 字 以 上 词 首 后 第 二 个 字 , M 表示 词 
{B, I, J, M, E, S} 二 Mo - 
PF, E 表示 词尾 字 , S 表示 单字 词 字 。 


在 计算 P、R、F 值 的 时 候 需要 给 每 个 标记 的 一 个 
权 值 , 本 文 对 其 权 值 的 计算 ， 如 表 3— 5 所 示 , 统计 
出 每 个 特征 标记 在 测试 语 料 中 的 数量 , 计算 其 所 占 比 
4, 用 该 标记 数量 在 总 标记 中 的 百分比 作为 其 权 值 。 

表 3 4Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
M 158 744.3 8.03% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


表 4 5Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
I 28 529 1.44% 
M 130 215.3 6.59% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


表 5 6Tag 特征 标记 数量 情况 


特征 标记 标记 数量 标记 所 占 百分比 
B 597 343.7 30.22% 
I 28 529 1.44% 
J 11 595.4 0.59% 
M 118 619.9 6.00% 
E 597 343.7 30.21% 
S 623 538.5 31.54% 


在 目前 利用 条 件 随机 场 进 行 中 文 分 词 的 研究 中 ， 
大 多 数 还 是 处 于 单一 特征 标记 阶段 。 对 于 组 合 特征 也 


多 是 简单 特征 增加 , 在 实验 中 发 现 , 不 同 的 特征 组 合 
带 来 的 效果 是 不 一 样 的 ， 并 不 是 特征 越 多 训练 出 来 的 
模型 分 词 效果 就 越 好 , 可 能 出 现 特征 干扰 和 由 于 特征 过 
多 而 带 来 的 元 余 信息 ,， 导致 分 词 效果 下 降 的 现象 "1。 

除 字 位 特征 以 外 , 针对 现代 汉语 文本 常用 的 其 他 
等 征 如 "字音 特征 "“ 词 长 特征 ” 笔者 进行 了 单独 实验 
和 组 合 实验 。 首 先 将 训练 语 料 选 择 其 中 一 些 特征 组 合 
配 上 合适 的 特征 标记 处 理 为 CRF++ 能 识别 的 训练 语 
料 格 式 , 如 表 6 所 示 。 男 外 ,在 处 理 训练 语 料 时候 , 将 
要 输出 的 特征 放 在 最 后 一 列 ,由 于 本 文 研 究 的 是 分 词 
任务 , 所 以 将 位 置 特征 放 在 最 后 一 列 。 
RO 添加 多 个 特征 之 后 的 训练 语 料 


食品 安全 语 料 字音 特征 词 长 特征 位 置 特征 
媒 mei 2 B 
体 ti 2 E 
调 diao 2 B 
查 cha 2 E 
街 jie 2 B 
头 tou 2 E 
凉 liang 3 B 
拌 ban 3 M 
菜 cai 3 E 
原 yuan 2 B 
料 liao 2 E 
部 bu 2 B 
分 fen 2 E 
为 wei 1 S 
^ ren 2 B 
造 zao 2 E 
或 huo 1 S 
Ei han 1 S 
添 tian 3 B 
加 jia 3 M 
剂 ji 3 E 


在 训练 学 习 和 测试 输出 阶段 , 将 语 料 均 分 为 10 
份 , 然后 按 7:3 的 比例 进行 训练 和 测试 , 并 使 用 10 折 
交叉 验证 对 模型 的 稳定 性 进行 评估 。 

对 不 同 特征 和 特征 组 合 进行 训练 和 测试 输出 ， 并 
对 结果 进行 测评 ， 结 果 如 表 7 所 示 。 从 实验 结果 可 以 
看 出 , 在 4Tag、5Tag 和 6Tag 类 型 的 特征 中 , 4Tag 和 
5Tag 的 类 型 的 特征 分 词 之 后 ,P、R\F 值 普遍 高 于 6Tag 
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类 型 的 特征 。 在 对 不 同 特征 选择 进行 训练 时 , 为 了 确 
保 区 分 度 , 均 使 用 如 表 8 所 示 特 征 模板 进行 训练 ， 多 
特征 则 在 特征 模板 中 男 起 一 行 同样 使 用 表 8 中 的 特 
征 模 板 。 


表 7 不 同 特征 组 合 的 分 词 测评 结果 


特征 选择 P 值 R 值 F 值 
4Tag 92.85% 92.89% 92.87% 
4Tag+ 词 长 92.74% 92.78% 92.76% 
4Tag+ 字 音 92.53% 92.57% 92.55% 
4Tag+ 词 长 + 字音 92.6796 92.69% 92.68% 
5Tag 92.85% 92.90% 92.88% 
5Tag+ 词 长 92.64% 92.69% 92.67% 
5Tag+ 字 音 92.32% 92.38 92.35% 
5Tag+ 词 长 + 字音 92.02% 92.08% 92.05% 
6Tag 92.20% 92.11% 92.16% 
6Tag+ 词 长 92.09% 92.00% 92.04% 
6Tag+ 字 音 92.00% 91.90% 91.95% 
6Tag+ 词 长 + 字音 91.7196 91.60% 91.65% 


A8 基本 的 特征 模板 
特征 特征 模板 
Cə U01:%x[-2, 0] 
C,  U02:%x[-1, 0] 
Co U03:%x[0,0] 
C;  U04:%xz[1, 0] 
C; U05:%x[2, 0] 

U 

U 

U 


前 字 的 前 驱 第 二 个 字 
E 


字 
前 字 的 前 驱 第 一 个 字 


lk uk uk lE UK 
4i 


前 字 的 后 驱 第 一 个 字 
前 字 的 后 驱 第 二 个 字 


> 


CCo。 U06:%x[-1, 0]/%x[0, 0] 前 一 个 字 到 当前 字 的 转移 概率 
CoCi U07:%x[0, 0]J/%x[1, 0] ”当前 字 到 后 一 个 字 的 转移 概率 
C4C, UO08:vx[-1, 0]/%x[1, 0] 前 一 个 字 到 后 一 个 字 的 转移 概率 


(2) 特征 模板 的 构建 和 优化 

CRF++ 中 的 特征 模板 主要 用 来 定义 从 训练 集中 提 
取 特 征 的 方法 , 使 用 特征 模板 从 训练 集中 提取 到 的 特 
征 字符 串 , 在 CRF++ 中 , AEREAS HERE P 
数 的 输出 用 来 判断 这 个 标签 是 否 要 输出 “output" 中 的 
特征 标签 。 

在 特征 模板 文件 中 ,主要 使 用 的 是 Unigram 
Template， 此 特征 模板 第 一 个 字符 是 U， 每 一 行 (如 
U01:%x[-2, 0]) 代 表 一 个 特征 ， 而 宏 “%x[ 行 位 置 ， 列 位 
置 ] 则 代表 相对 于 当前 指向 的 token 的 行 偏 移 和 列 的 
绝对 位 置 , 如 表 8 所 示 。 每 一 行 "%x[ 行 位 置 ， 列 位 置 ] 
生成 一 个 CRFs 中 的 点 (state) 函 数 : fs, o), 其 中 s 为 1 
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时 刻 的 标签 (outpub, o 为 1 时 刻 的 上 下 文 。 使 用 表 2 所 
示 的 特征 模板 , 以 表 6 中 的 语 料 来 说 明 : 

funcl = if (output = B and feature="U040: 媒 return 1 else return 0 

它 是 由 U03:%x[0, 0] 在 输入 文件 的 第 一 行 生成 的 
点 函数 。 将 输入 文件 的 第 一 行 “ 代 入 ”到 函数 中 ,函数 
返回 1， 同 时 ,如 果 输 入 文件 的 某 一 行 在 第 1 列 也 是 
"lit" 并 且 它 的 output( 最 后 一 列 ) 同 样 也 为 B, 那么 这 
个 函数 在 这 一 行 也 返回 1。 

在 template 文件 中 , 每 一 种 特征 对 应 一 个 特征 模 
板 (template 中 用 换行 来 区 分 不 同 的 特征 模板 ), 不 同 的 
特征 模板 和 不 同 特征 之 间 的 配合 使 用 同样 也 会 影响 到 
分 词 的 效果 站。 本 文 利用 特征 选择 中 效果 比较 好 的 
5Tag 特征 标记 对 不 同 的 特征 模板 进行 实验 , 结果 如 表 
9 所 示 , 可 以 看 出 不 同 的 特征 模板 构建 方式 对 分 词 效 果 
的 影响 较 大 ， 其 中 移 除 二 元 特征 (C_1Co, CoC, CC ), 
F 值 有 明显 下 降 ， 而 一 元 特征 的 增加 和 移 除 对 分 词 效 

影响 不 明显 ， 当 增加 的 二 元 特征 不 包含 Co (%x[0， 


0]) 时 ， 对 分 词 结果 影响 不 大 。 
表 9 应 用 不 同 特征 模板 的 分 词 结 
特征 模板 (对 比 表 8) F 值 
原始 特征 模板 92.88% 
移 除 一 元 特征 C_,、C,、 C 4. Ci 92.72% 
移 除 二 元 特征 CCo CoCr C 46, 86.33% 
增加 一 元 特征 C_3、C3 92.73% 
增加 二 元 特征 CCa, C 4C 5 92.56% 
GE: 增加 的 一 元 特征 : U09:%x[-3, 0] 和 U010:%x[3, 0]; 增加 的 
二 元 特征 : U09:%x[1, 0]/%x[2, 0] 和 U10:%x[-1, 0]/%x[-2, 0]。) 


4 实验 结果 分 析 


对 不 同 特征 选择 实验 结果 进行 对 比分 析 , 由 表 7 
数据 生成 图 5, 将 数据 分 为 三 组 (4Tag 组 .5Tag 组 .6Tag 
组 ) 进 行 分 析 , 可 以 看 出 , 原始 的 位 置 特征 标记 ( 仅 加 
上 位 置 特征 ) 所 得 到 的 分 词 效 果 (F 值 ) 最 好 , 加 上 其 他 
一 个 或 多 个 特征 之 后 , 均 有 下 降 趋势 。 

条 件 随机 场 的 最 大 优势 是 不 仅 可 以 融入 当前 字 
的 各 种 特征 知识 ， 而 且 可 以 结合 当前 字 左 右 特征 知识 
从 而 形成 最 有 效 的 特征 模板 43。 对 不 同 特征 模板 的 实 
验 结果 中 ， 移 除 当前 字 和 前 驱 第 一 个 字 以 及 当前 字 和 
后 驱 第 一 个 字 的 特征 行 时 分 词 结果 变化 明显 , F 值 降 
低 较 多 。 表 10 中 , 统计 了 语 料 中 词 长 分 布 情况 ,其 中 
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二 字 词 和 三 字 词 占 46.62% 的 比重 ,所 以 不 难看 出 当前 
字 和 前 驱 第 一 个 字 以 及 当前 字 和 后 驱 第 一 个 字 的 特征 
行 在 本 文 研究 的 语 料 自动 分 词 的 特征 模板 构建 中 是 不 
可 缺少 的 。 而 由 于 三 字 以 上 词 所 占 比 重 较 少 REA 


2.28%， 因 此 当 涉 及 到 前 驱 第 二 个 字 和 后 驱 第 二 个 字 ， 
以 及 前 驱 第 三 个 字 和 后 驱 第 三 个 字 的 特征 模板 的 变化 
影响 不 大 。 


mf, 则 对 分 词 结 


[2 
6Tag 
m BU EE 92.8796 92.8896 92.16% 
目 加 词 长 特征 92.76% 92.67% 92.04% 
利加 字音 特征 92.55% 92.35% 91.95% 
加 加 词 长 和 字音 特征 | 92.68% 92.05% 91.65% 


图 5 不 同 特 征 组 合 所 得 下 值 变 化 趋势 
表 10 食品 安全 突 发 事件 语 料 中 词 长 分 布 


词类 型 词 长 度 所 占 百 分 比 
单字 词 1 039 205 51.10% 
二 字 词 841 690 41.39% 
三 字 词 106 307 5.23% 

5r isi] 28 220 1.3994 
五 字 词 8 893 0.44% 
六 字 词 2 626 0.13% 

其 他 6 598 0.32% 


本 文 针对 食品 安全 突 发 事件 语 料 的 自动 分 词 效果 
相 比 于 在 一 些 标准 测试 集 上 的 测试 效果 略 低 中 1。 分 析 
原因 主要 在 于 处 理 语 料 时 ， 首 先进 行 机 需 分 词 然 后 人 
TRIE, 在 后 期 对 错误 分 词 分 析 的 过 程 中 发 现 ， 人工 
校正 的 过 程 中 出 现 较 多 的 错误 ， 有 许多 机 需 分 词 错误 
未 予以 纠正 ,， 也 有 些 机 如 分 词 正确 而 后 期 人 工 校正 的 
过 程 中 修改 为 错误 的 情况 ,这 对 训练 学 习 阶段 和 模型 
测评 阶段 均 有 影响 。 


5 结 语 


将 条 件 随 机 场 模 型 应 用 到 食品 安全 突 发 事件 语 料 
的 自动 分 词 中 , 使 用 较为 成 熟 、 稳 定性 较 强 的 CRF++ 
工具 对 其 进行 逐一 实验 ,并且 考虑 到 文本 的 多 特征 性 
以 及 多 特征 相互 组 合 的 可 能 。 实 验 结果 表明 特征 标记 
的 选择 以 及 不 同 特征 组 合 的 选择 会 影响 到 分 词 效果 ， 
其 中 仅 加 上 位 置 特 征 的 特征 选择 4Tag 和 5Tag 的 分 词 
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效果 较 好 , 其 F 值 达 到 92.87% 和 92.88%, 而 加 上 其 他 
特征 之 后 F 值 均 有 下 降 。 同 时 ,通过 对 不 同 特征 模板 
分 词 效果 的 对 比分 析 , 选择 符合 所 选 特征 和 合适 本 文 
研究 对 象 的 特征 模板 。 


在 未 来 的 研究 中 , 将 在 文本 特征 上 做 进一步 挖掘 ， 


找到 能 将 上 下 文 的 语义 和 文本 结构 信息 融合 进去 的 特 


p^ 


， 期 望 在 自动 分 词 上 得 到 更 好 的 效果 。 
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Segmenting Chinese Words from Food Safety Emergencies 
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(Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China) 
*(Library of Jiangsu Police Institute, Nanjing 210031, China) 


Abstract: [Objective] This paper examines the automatic word segmentation models, which plays key roles to build 


databases for food safety administration. We used the statistical learning method based on conditional random field to 


segment words from food safety emergencies. [Methods] First, we analyzed the length of target words and conducted 


multiple experiments on the selection and template of word features for the automatic segmentation methods. Second, 


we identified the impacts of different features and templates to the segmentation results. [Results] We found 


that selecting more features might not yield better results due to the characteristics interference. About 46.62% of the 


phrases from the corpus of food safety emergencies only contained two or three words. The first words before and after 


the current word of the features template pose more effects to the results. [Conclusions] We have identified the optimal 


feature and template for the automatic segmentation of words and the F score reaches 92.8896 with the 5Tag features. 


Keywords: Chinese Word Segmentation Food Safety Conditional Random Field Feature Template 


Feature Selection 
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